资源警告!有人收罗了40个中文NLP词库,放到了GitHub上 您所在的位置:网站首页 同义词替换 清华的成语大全 资源警告!有人收罗了40个中文NLP词库,放到了GitHub上

资源警告!有人收罗了40个中文NLP词库,放到了GitHub上

2023-07-14 09:24| 来源: 网络整理| 查看: 265

乾明 编辑整理量子位 出品 | 公众号 QbitAI

你还在为进行中文NLP找不到词库而发愁吗?

你还在为了从文本中抽取结构化信息而抓耳挠腮吗?

现在,这些症状可以得到缓解了。

最近,在GitHub上,有人收罗了一份资源,汇集了40个关于中文NLP词库,涵盖了各个方面。

中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典。

词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库。

否定词库、汽车品牌词库、汽车零件词库、连续英文切割、各种中文词向量、公司名字大全、古诗词库、IT词库、财经词库、成语词库。

地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库、中文聊天语料、中文谣言数据。

640?wx_fmt=png

目前,这份资源在GitHub上已经超过了700星。

收罗这份资源的人,在GitHub上昵称为“Yang”,备注信息中显示,他是北航的博士。在知乎上也开设了一个专栏,专门介绍关于机器学习的小知识。

640?wx_fmt=png

在Yang给出的这份资源中,他并不只是简简单单地提供一些词库了事,还给出了32个词库的用法。

比如,中英文敏感词过滤:

 >>> f = DFAFilter() >>> f.add("sexy") >>> f.filter("hello sexy baby") hello **** baby

有时,还会针对一些词库给出提示,针对这个词库他就提示道:

敏感词包括政治、脏话等话题词汇。其原理主要是基于词典的查找(项目中的keyword文件),内容很劲爆。。。

再来一个根据名字判断性别的例子:

pip install ngender # 基于朴素贝叶斯计算的概率

>>> import ngender>>> ngender.guess('赵本山')('male', 0.9836229687547046)>>> ngender.guess('宋丹丹')('female', 0.9759486128949907)

此处省略了其他30个……如果有兴趣,可以去看看,收藏下来,以备不时之需。

传送门:https://github.com/fighting41love/funNLP

作者知乎专栏地址:https://zhuanlan.zhihu.com/yangyangfuture

— 完 —

年度评选申请

640?wx_fmt=jpeg

加入社群

量子位AI社群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;

此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

活动策划招聘

量子位正在招聘活动策划,将负责不同领域维度的线上线下相关活动策划、执行。欢迎聪明靠谱的小伙伴加入,并希望你能有一些活动策划或运营的相关经验。相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

640?wx_fmt=jpeg

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有